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摘 要 : 由 于 现 有 的 基于 深度 神经 网 络 的 显著 性 对 象 检测 算法 忽视 了 对 象 的 结构 信息 ， 使 得 显著 性 图 不 能 完整 地 履 盖 

整个 对 象 区 域 ， 导 致 检测 的 准确 率 下 降 。 针 对 此 问题 ， 提 出 一 种 结构 感知 的 深度 显著 性 对 象 检测 算法 。 算 法 基于 一 种 

多 流 结 构 的 深度 神经 网 络 ， 包 括 特征 提取 网 络 、 对 象 骨 架 检 测 子 网 络 、 显 著 性 对 象 检 测 子 网 络 和 跨 任务 连接 部 件 四 个 
。 首 先 ， 在 显著 性 对 象 子 网 络 的 训练 和 测试 阶段 ， 通 ee 并 利用 跨 任 务 

连接 部 件 使 得 显著 性 对 象 检测 子 网 络 能 自动 编码 对 象 骨骼 子 网 络 学 习 的 信息 ， 从 而 感知 对 象 的 整体 结构 ， 克 服 对 象 区 

域 检测 不 完整 问题 ; 其 次 , 为 了 进一步 提高 所 提 方 法 的 准确 率 , 利用 全 连接 条 件 随机 场 对 检测 结果 进行 进一步 的 优化 。 

在 三 个 公共 数据 集 上 的 实验 结果 表明 ， 该 算法 在 检测 的 准确 率 和 运行 效率 上 均 优 于 现 有 存在 的 基于 深度 学 习 的 工法 ， 

这 也 说 明了 在 深度 神经 网 络 中 考虑 对 象 结构 信息 的 捕获 是 有 意义 的 ， ee 
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Salient object detection algorithm based on structure-sensitive deep neural network 


Li Xin!’, Chen Leitingla 1b,?, Cai Hongbinle 1b 
(1.4a. School of Computer Science & Engineering, b. Digital Media Technology Key Laboratory of Sichuan Province, University 
of Electronic Science & Technology of China, Chengdu 611731, China; 2. Institute of Electronic & Information Engineering in 
Guangdong, University of Electronic Science & Technology of China, Dongeuan Guangdong 523000, China) 


Abstract: Current salient object detection algorithms based on deep neural network (DNN) are usually not able to be aware of 
the structure of instance, making the generated saliency maps fail to cover the entire salient object region, and thus drag down 
the accuracy. To solve this problem, we introduced a novel multi-stream deep neural network, in which four components were 
integrated in a single framework: feature extractor, object skeleton sub-network, salient object sub-network and cross-domain 
connections. Firstly, during the learning and testing process, the salient object detection sub-network encoded the object structure 
which was extracted by using object skeleton detection sub-network through the cross-domain connections, so as to make the 
deep model be aware of the information of object structure and overcome the problem of incomplete detection of the target area. 
Then, to further improve the accuracy, we proposed to use a dense conditional random field based algorithm as the refinement 
post-process, So as to generate a more accurate saliency map as the final results. Experimental evaluations were conducted on 
three widely-used benchmarks and the results show that the proposed algorithm outperforms all existing DNN-based detection 
algorithms in accuracy and efficiency. This also indicates that integrating object structure information into deep neural network 
model is meaningful, which can help to improve the overall accuracy. 
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detection 
六 背景 杂质 等 )。 在 各 种 计算 机 视觉 任务 中 ， We ns 
区 提高 检测 的 准确 率 ， 也 能 提高 算法 的 运行 效率 。 显 著 性 对 象 检 


显著 性 对 象 检 测 的 目的 是 在 某 个 给 定 场景 中 自动 地 检测 出 。”” 测 被 广泛 运用 在 人 工 智能 相关 的 任务 中 ， 让 


最 吸引 人 注意 力 的 对 象 区 域 ， 从 而 排除 不 重要 的 信息 “例如 : 旨 用 人体 姿 态 识别 下。 对象 追踪 和 直下 六 ,从 。 
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录用 稿 李 铭 ， 等 : 基于 结构 感知 深度 种 经 网 络 的 显著 性 对 稍 检 测算 法 


显著 性 对 象 检测 分 为 两 个 主要 的 研究 方向 : 自 顶 向 下 (top- ”” 接 求 得 每 个 像素 的 显著 性 值 。Wang 等 人 Seen 把 先 验 知识 
down) 的 显著 性 对 象 检测 和 自 底 向 上 bottom-up) 的 显著 性 对 ”用 于 循环 网 络 ， 然 后 直接 预测 每 个 像素 的 显著 性 值 。Hou 等 人 
象 检测 。 自 项 向 下 的 显著 性 对 象 检测 与 对 象 检 测 相关 ， 其 目标 ”下 提出 同时 融合 多 个 尺度 信息 的 全 卷 积 网 络 去 检测 显 
是 自动 定位 指定 类 别 的 对 象 所 在 位 置 。 而 自 底 向 上 的 显著 性 对  ” 著 性 对 象 。 这 个 方法 基于 骨 套 网 络 框 架 ， 通 过 内 部 的 连接 去 整 


象 检测 算法 则 是 自动 地 识别 给 定 场景 中 最 为 显著 的 一 个 或 者 多 合 多 尺度 信息 。Li 等 人 “em 提出 用 级 联结 构 网 络 同时 捕 

个 对 象 区 域 。 相 比 目 标 驱动 的 、 自 项 向 下 的 显著 性 对 象 检测 算 。 获 多 尺度 上 下 文 信息 ， 以 解决 对 象 的 尺度 问题 。 

法 ， 自 底 向 上 的 方法 具有 下 意识 、 快 速 以 及 数据 驱动 的 特征 。 但 由 于 对 象 的 多 样 性 、 训 练 数据 库 的 样本 偏差 等 ， 在 显著 

本 文 研究 自 底 向 上 的 显著 性 对 象 检测 算法 ， 即 自 适应 地 检测 任 ”性 对 象 结构 复杂 的 情况 下 ， 现 有 的 深度 模型 ， 很 难 检测 出 完 

意 场 景 中 最 为 显著 的 对 象 区 域 。 的 对 象 区 域 。 如 何在 网 络 学 习 和 测试 的 过 程 中 意识 和 捕获 到 对 
自 底 向 上 的 显著 性 对 象 检 测 可 以 主要 归纳 为 两 类 : 传统 检 ， 和 象 的 完整 结构 信息 ， 是 被 过 去 和 现 有 研究 所 忽略 的 问题 。 针 对 


测 模型 和 基于 深度 学 习 的 检测 模型 。 传 统 模型 宇和 -~- 氏 未 这 些 问 题 ， 本 文 提 种 基于 结构 感知 的 深度 神经 网 络 模型 ， 
到 结 汤 , 利用 低级 的 图 像 特征 (如 颜色 生生 用。、 梯度 竺 太吉 到 引用 并 将 之 运用 于 检测 场景 中 的 显著 性 对 象 。 

并 、 深 度 sfeaa 等 ) 计算 显著 性 值 ， 并 基于 简单 的 先 验 知识 1 ”本 文 方法 

(如 中 心 先 验 , 边缘 先 验 等 ) 和 观察 进行 建 模 中, 很 难 用 于 较 复 

杂 的 场景 。 为 了 在 训练 和 检测 中 能 使 得 深度 神经 网 络 自动 捕获 和 感知 
近 几 年 ,深度 学 习 广泛 地 运用 于 计算 机 视觉 的 不 同 任务 中 。 对 象 的 整体 结构 信息 ， 然 后 利用 这 些 结构 信息 完整 地 检测 出 整 
显著 性 对 象 检测 受益 于 这 种 基于 深度 神经 网 络 、 端 到 端 自 动 学 个 显著 性 对 象 区 域 ， 本 文 提出 一 种 基于 结构 感知 的 深度 神经 网 
习 的 高 级 语义 特征 。 相 比 传统 模型 ， 基 于 深度 模型 的 显著 性 检 ”” 络 模型 。 如 图 1 所 示 ， 该 神经 网 络 模型 包括 四 个 部 分 : 特征 提 
测算 法 可 以 利用 语义 信息 极 大 提升 显著 性 对 象 检测 的 准确 率 。 取 网 络 ， 对 象 骨骼 提取 子 网 络 ， 显 著 性 对 象 检 测 子 网 络 和 跨 任 
这 些 基 于 深度 学 习 的 方法 可 进一步 分 为 基于 区 域 的 深度 学 习 检 连接 部 件 。 本 文 提 出 的 深度 模型 贡献 在 于 : a) 不 同 于 传统 多 
测 和 基于 像素 级 的 深度 学 习 检 测 。 基 于 区 域 的 显著 性 检测 算法 ”任务 网 络 " sa， 仅仅 通过 共享 底层 表达 的 方法 互相 传递 
将 每 个 区 域 当成 一 个 独立 的 单元 进行 计算 。Li 等 人 和 Rs， 信息 ， 本 文 的 网 络 把 跨 任 务 连接 部 件 用 在 多 个 尺度 上 ， 并 深度 
提出 一 个 多 尺度 显著 性 对 象 检 测 网 络 去 计算 每 个 超 像素 的 显著 融合 对 象 骨骼 子 网 络 学 习 的 知识 和 信息 ， 使 得 显著 性 检测 子 网 
性 值 。 Wang 等 人 和 下, 把 从 不 同 网 络 提取 出 来 的 局 部 和 全 络 在 特征 学 习 和 编码 的 过 程 中 能 主动 吸收 、 整 合 不 同 尺 度 的 对 
局 显著 性 特征 融合 到 统一 框架 中 ， 然 后 计算 每 个 区 域 的 显著 性 象 骨骼 信息 ， 以 便 更 好 地 捕捉 对 象 结构 特征 ，b) 通 过 共享 的 底 
值 。 类 似 地 , Zhao 等 人 车 fasRi 利用 深度 神经 网 络 同时 提取 屋 表 达 ， 对 象 骨骼 检测 子 网 络 能 共享 对 象 显著 性 信息 ， 使 对 象 
局 部 和 全 局 的 上 下 文 信息 ， 然 后 计算 每 个 区 域 的 显著 性 值 。 然 上 骨骼 的 检测 集中 在 显著 的 对 象 上 ， 从 而 克服 背景 杂质 的 干扰 ; 
而 ， 目 前 的 基于 区 域 的 深度 检测 模型 都 将 每 个 区 域 看 成 一 个 独 c) 利 用 全 连接 条 件 随 机 场 (dense conditional random field， 
立 的 单元 ， 造 成 计算 上 的 元 余 ， 降 低 了 运行 效率 。 针 对 这 个 问 DenseCRF ) 对 深度 网 络 的 检测 结果 进行 进一步 的 优化 , 使 得 检 
题 ， 基 于 像素 级 的 显著 性 对 象 检测 通过 深度 神经 网 络 模型 ， 直 测 结果 更 准确 。 


1 基于 结构 感知 的 深度 神经 网 络 的 整体 结构 


特征 提取 网 络 基于 VGG-16 网 络 结构 sse 。 传 统 的 ”模型 添加 了 一 个 额外 的 卷 积 层 ， 维 度 设 为 1024 维 。 除 此 之 外 ， 
VGG-16 网 络 结构 包含 5 组 不 同 尺 度 的 卷 积 层 以 及 3 个 一 维 向 “一 个 额外 的 反 卷 积 层 也 被 添加 在 特征 提取 网 络 中 ， 用 作 后 续 子 
量 。 由 于 本 文 的 目标 是 像素 级 的 检测 ， 因 而 设计 的 特征 提取 网 ”网络 〈 包 括 显著 性 对 象 检 测 子 网 络 和 对 象 骨骼 检测 子 网 络 ) 的 
只 取 VGG-16 的 前 五 组 卷 积 层 。 另 外 ， 为 了 确保 网 络 深度 ， 共享 底层 表达 。 特 征 提取 网 络 的 前 五 组 卷 积 层 的 参数 初始 化 利 
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用 在 ImageNet 中 训练 的 VGG-16 对 应 的 网 络 参数 , 而 新 添加 的 
两 个 卷 积 层 的 参数 被 随机 初始 化 。 特 征 提取 网 络 的 输入 为 任意 
一 张 RGB 图 1, 输出 为 提取 的 深度 特征 , 标记 为 ,作为 后 续 
子 网 络 的 底层 表达 。 
1.1 对 象 骨骼 检测 子 网 络 

对 象 骨骼 检测 子 网 络 的 输入 为 特征 提取 网 络 所 提取 的 深 
特征 图 下 ,输出 为 对 应 的 对 象 骨 嵩 图 % CCD) ,其 中 心 为 对 
象 骨骼 提取 子 网 络 的 网 络 参数 。 对 象 骨骼 提取 网 络 基于 反 卷 积 
网 络 结构 , 包括 5 个 不 同 尺度 的 逆 池 化 层 (up-pooling layer) 和 
反 卷 积 层 (De-Convolution layer Deconv)， 每 组 的 尺度 与 特征 
提取 网 络 的 尺度 对 应 ， 从 而 最 


奖 


终 获取 的 对 象 骨 骼 图 的 


尺度 和 输入 尺度 大 小 一 致 .如 图 2 所 示 ， 
不 同 于 池 化 层 用 于 整合 信息 、 缩 小 感受 野 、 排 除 和 杂质 ， 逆 池 化 
层 具 有 相反 的 操作 ， 通 过 重新 定位 池 化 区 域 最 大 值 的 位 置 重建 
被 池 化 信息 。 其 中 逆 池 化 操作 和 反 卷 积 操作 与 池 化 和 卷 积 操作 
具有 完全 相反 的 步骤 ， 用 于 重建 信息 


(pb) 道江 化 


(d) 反 卷 积 


图 2 逆 池 化 操作 和 反 卷 积 操作 示意 图 特征 提取 网 络 


于 逆 池 化 操作 的 输出 为 一 个 扩大 而 稀疏 的 特征 ， 反 卷 积 
操作 通过 类 似 于 卷 积 的 操作 去 进一步 扩充 丢失 的 信息 。 另 外 ， 
每 个 反 卷 积 层 后 ， 额 外 添加 了 一 个 Relu 激活 函数 (Relu 


activation function )。 为 了 防止 过 度 拟 合 ， 对 每 个 Relu 层 后 添加 
一 个 Dropout 层 。 对 象 骨骼 检测 子 网 络 的 配置 如 表 1 所 示 。 


表 1 对 象 骨骼 检测 子 网 络 配置 


反 卷 积 层 ”设置 核 参数 设置 ”激活 函数 
eConv DeConv&Unpoo 5XK5X512 Relu 
eConv2 DeConv&Unpoo 5X5XX256 Relu 
eConv3 DeConv&Unpoo 5X5X128 Relu 
eConv4 DeConv&Unpoo 5X5X64 Relu 
eConv5 DeConv&Unpoo 5X5X32 Relu 
对 象 骨骼 检测 子 网 络 的 任务 是 提取 目标 图 像 中 对 象 的 骨骼 
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信息 。 网 络 参数 和 的 训练 属于 像素 级 的 回归 问题 (pre-pixel 
基于 此 ， 本 文 构造 了 如 下 目标 函数 : 


regression) 。 


Ls 0)= min 21a {Si (7), Si (FP;0,)(p)} (1) 
i 


其 中 : S,_w (p) 表示 在 第 j 个 训练 样本 , 像素 坐标 Pp 处 的 用 户 


标注 (Ground Truth, GT ) 乡 


结果 ; Si (FF;0,)(p) 表示 深度 模型 


根据 网 络 参数 9. 预测 的 第 j 个 训练 样本 , 坐标 p 处 的 值 。 ls{*} 
表示 损失 函数 ， 用 于 计算 深度 模型 预测 结果 和 用 户 标注 结果 的 
差异 。 这 里 ， 损 失 函 数 为 典型 的 交叉 炳 代价 函数 ， 定 义 如 


=-> Ss(p)logP(S.(p)=1|F;0,) 
2 (2) 
+(1—S, a(p)1logP(S.(p)=0|F;0,) 


其 中 : Si_w(D) 表 示 在 坐标 P 处 的 用 户 标注 ，Si(p) 表示 用 户 


预测 的 坐标 P 处 的 结果 。 


对 象 骨骼 检测 子 网 络 通 过 大 量 样本 的 训练 学 习 到 反映 对 
象 整体 结构 的 骨骼 信息 。 本 文 的 目标 是 利用 该 信息 进 
显著 性 对 象 检 测 的 完整 性 和 准确 率 ， 下 一 节 将 介绍 如 何 运 用 委 
习 的 对 象 骨骼 信息 去 帮助 学 习 显 著 性 对 象 信息 。 


1.2 显著 性 对 象 检测 子 网 络 
显著 性 对 象 检 测 子 网 络 和 对 象 骨 骼 检测 子 网 络 都 基于 相 
同 的 底层 表达 , 输出 为 一 个 显著 性 图 5S,(7;0), 其 中 0 表 


示 对 象 检测 子 网 络 的 网 络 参数 。 显 著 性 对 象 子 网 络 的 网 络 参数 
配置 如 表 2 所 示 。 


表 2 显著 性 对 象 检 测 子 网 络 配置 


反 卷 积 层 ”设置 核 参数 设置 ”激活 函数 
DeConvl DeConv&Unpool 3x3x512 Relu 
DeConv2 DeConv&Unpool 3x3x256 Relu 
DeConv3 DeConv&Unpool 3x3x128 Relu 
DeConv4 DeConv&Unpool 3x3x64 Relu 
DeConv5 DeConv&Unpool 3x3x32 Relu 


不 同 于 对 象 骨骼 检测 子 网 络 结构 , 显著 性 对 象 检测 子 网 络 
利用 跨 任务 连接 部 件 同时 编码 显著 性 对 象 信息 和 对 象 骨骼 信息 
帮助 学 习 对 象 结构 感知 的 显著 性 特征 。 具 体 来 说 ， 显 著 性 检测 
子 网 络 在 多 尺度 的 学 习 过 程 中 与 相应 尺度 的 对 象 骨骼 学 习 得 到 
的 特征 进行 整合 : 


se 


从 (下 甘 日 = 
MA -| 
= 


pip ay i 人 
录用 稿 李 答 ， 等 : 基于 结构 感知 pe UE es 


F™ =afcat( mu 7 )@ +b.} (3) 输入 图 像 ”DeconvNet Ours 


其 中 : @ 表示 卷 积 操作 ，W 表示 尺度 5; 的 卷 积 (convolutional 
filters )，b; 表示 尺度 5; 的 偏 置 (biases )。 本 文 运用 Relu 作为 非 
线性 激活 函数 c(, 。cart(*) 表示 一 个 连接 函数 , 用 来 连接 两 个 不 
同 的 特征 图 (feature maps)。 如 图 1 所 示 ， 两 个 不 同 子 网 络 学 习 
的 特征 通过 跨 任 务 连接 部 件 〈cross-domain connections ) 整合 为 
个 信息 更 加 丰富 的 特征 图 ， 显 著 性 对 象 检测 子 网 络 更 高 尺度 
的 特征 学 习 基 于 整合 后 的 特征 ， 从 而 能 编码 对 象 骨骼 检测 子 网 
络 学 习 的 知识 。 值 得 注意 的 是 : 上 述 两 种 信息 的 整合 为 非 线 性 
的 ， 由 深度 神经 网 络 通过 端 到 端 地 训练 自动 获取 。 


图 3 单 任 务 反 卷 积 网 络 (DeconvNet)， 本 文 模型 结果 对 比 


由 于 目前 没有 可 以 同时 包含 对 象 骨骼 和 显著 性 对 象 区 域 信 
类 似 于 对 象 骨骼 检 测 子 网 络 ,显著 性 对 象 检测 子 网 络 的 参 。” 息 的 训练 数据 集 ， 因 此 不 能 够 直接 训练 本 文 提出 的 网 络 模型 。 
数 训练 也 是 一 个 向 用 户 标注 数据 的 回归 问题 .目标 函数 构造 为 。 ”为 了 解决 这 个 问题 ， 本 文 利用 一 种 交 蔡 学 习 的 方式 完成 网 络 的 
训练 。 主 要 思想 是 运用 不 同 的 训练 数据 集 交 营地 训练 显著 性 检 
Tow 0w= 吕 nl Sue (9),Sw (FF;Ow)(9)} (4 测 神经 网 络 的 两 个 不 同 子 网 络 参数 ， 直 至 目标 函数 式 (1) (4) 
均 收敛 。 
1.3 显著 性 图 优化 方法 
尽管 提出 的 深度 模型 已 经 可 以 获得 准确 的 检测 结果 , 但 是 
一 些 极端 情形 下 ， 深 度 神经 网 络 模型 仍然 不 能 很 好 地 保存 对 象 
的 边缘 信息 。 为 了 克服 这 个 问题 ， 本 文 利用 全 连接 条 件 随机 场 
的 第 7 个 训练 样本 ， 坐 标 4 处 的 显著 性 值 。 损 失 函 数 也 选用 交 (Dense CRF) 进一步 优化 深度 模型 的 检测 结果 S。 。 关 似 于 语 


其 中 : 5 (9) 为 第 7 个 训练 样本 , 像素 坐标 9 处 的 用 户 标注 


的 显著 性 值 。S_7(CF;6_)(G) 表示 显著 性 对 象 检测 子 网 络 预测 


叉 炉 代价 函数 : 义 分 割 ， 定 义 如 下 能 量 方程 : 
-5 5 s (9 log P(S,(q) =1|F;0,) E(D=-Dlog PO) + D0) a 
peZ (5) i J 


+(1— S50.(q9) log P(S,(q) =0|7;0) 


上 述 能 量 方程 由 数据 项 和 平滑 项 组 成 。 其 中 工 表示 显著 性 
秸 的 标签 。 Le {0,1} ， 当 L(Gi) =1 时 表示 像素 i 属于 显著 性 对 象 
区 域 ， 反 之 当 Z(D) =0 表示 该 对 应 像素 属于 非 显 著 性 对 象 区 域 。 
S61(4) 表示 显著 性 对 象 子 网 络 的 预测 值 。 log P() 为 数据 项 ， 其 中 P() 的 值 为 深度 神经 网 络 预测 像素 ; 
的 显著 性 值 ， 因 而 PO) = gwGD 且 P(O) =1-SwGD) 。 四 ,0) 为 
平滑 项 ， 用 于 鼓励 颜色 相近 的 相 邻 像素 具有 相同 的 标签 。 平 滑 
页 的 定义 如 下 : 


其 中 : Su-w(9) 表示 图 像 坐 标 9 处 用 户 标注 的 显著 性 值 ， 


骨骼 信息 反映 了 对 象 的 整体 结构 信息 , 显著 性 对 象 检测 子 
网 络 在 特征 学 习 的 过 程 中 ， 以 端 到 端的 方式 学 习 如 何 整合 对 象 
骨骼 信息 ， 从 而 感知 对 象 结构 ， 提 高 检测 结果 的 完整 性 。 相 比 
单 任务 反 卷 积 网 络 ， 本 文 在 深度 神经 网 络 中 加 入 骨骼 信息 的 学 | |] 
习 , 且 将 多 个 尺度 的 信息 融合 , 从 而 提高 了 检测 结果 的 完整 性 。 oa) = A DN exp| ~ 3 

如 图 3 所 示 ， 对 于 结构 复杂 的 对 象 ， 本 文 模型 依然 可 以 准确 检 < on 
测 出 完整 的 显著 性 对 象 区 域 。 而 单 任务 的 反 卷 积 网 络 ， 由 于 不 | 
能 感知 对 象 结构 ， 则 不 能 很 好 地 保存 检测 对 象 区 域 的 完整 性 。 x 
其 中 GT 表示 用 户 标注 。 
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其 中 ，p; 和 p; 用 于 表示 像素 i 和 像素 j 所 对 应 的 坐标 位 置 ，1 
与 1 分别 表示 像素 i 和 像素 j 所 对 应 的 像素 亮度 。 另 外 ， 当 
时 ，L4,4) =1; 反之 ，AK4s1)=0 。v 、o 以 及 k 为 能 量 
方程 的 权重 ， 用 于 分 别 控制 位 置 和 颜色 的 相似 性 等 对 优化 方程 
的 影响 。 


求解 式 〈7) 为 一 个 NP-hard 问题 ， 这 里 简单 采用 平均 差 
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近似 方法 求解 。 优 化 方程 将 原本 模型 输出 的 显著 性 图 作为 输入 ， 


并 且 进 行 优 化 ， 得 到 一 个 更 加 准确 的 结果 作为 输出 。 


2 ”实验 和 分 析 


2.1 实验 环境 


本 实验 的 训练 和 测试 环境 为 : Ubuntu 14.04， Caffe 刷 
NVIDIA GTX Titan X GPU 加 速 深度 神经 网 络 。 


且 利 用 
神经 网 络 训练 的 数据 集 为 MSRA-1009 作为 显著 性 


子 网 络 的 训练 集 {Tsa, Gye}。 


测试 集 采 用 了 三 


该 优化 方 
法 能 更 很 的 保存 对 象 的 边缘 信息 以 及 对 象 区 域 连续 性 。 


匡 架 ， 
深度 

E 对 象 检测 

子 网 络 的 训练 集 {75,Gs}; Pascal-SYMP?1 作为 对 象 骨骼 检测 


个 公共 数据 集 ， 包 括 ECSSD 千 开 不 坟 到 引用 浙 ,、 


DUT-OMR ON 第 吕 想到 引用 涯 ' 以 及 HKU-IS 第 吕 未 找到 引用 源 '。 其 中 , ECSSD 


为 目前 最 为 广泛 使 用 
有 复杂 背景 的 图 像 。 


的 公共 数据 集 。 该 数据 集 包 括 1,000 张 
DUTOMRON 为 一 个 大 型 公共 数据 库 ， 


巴 


含 5,168 张 非常 挑战 的 图 像 。 这 些 图 像 具 有 一 个 或 者 多 个 显著 


性 对 象 ， 这 些 显著 性 对 象 具 有 各 蜡 的 姿态 和 外 形 。 


的 数据 库 。 
$$ 1,447 张 图 
简单 的 先 验 知 识 ， 比 如 对 比 度 、 


六 


HKU-IS 为 近期 发 布 上 
像 。 该 数据 构建 时 候 特 意 避 
I 中 必 
等 ， 并 且 该 数据 集中 的 显著 性 对 象 一 般 为 多 个 。 因 而 该 数据 库 


该 数据 库 也 
的 公共 


LD 先 验 


村 二 


也 是 目前 非常 有 难度 的 数据 库 。 
性 模型 的 准确 性 和 重 棒 性 


上 述 数据 库 可 以 用 


2.2 ”训练 和 测试 


训练 和 测试 的 步骤 具体 如 下 : 


于 验证 


NT 


a) 在 训练 和 测试 过 程 中 ， 先 将 图 像 尺 度 统 一 调整 为 224 x 


224， 以 保证 


VGG-16 网 络 的 输入 要 求 和 运行 效率 ; 


b) 在 ImageNet 上 训练 VGG-16 网 络 , 将 得 到 的 网 络 参 数 去 


且 最 大 训练 次 数 maxi 设置 为 60,000; 


(d) 上 述 步骤 交 蔡 进行 ， 利 用 随机 梯度 下 降 方 法 训练 参数 ， 


标 函 数 收敛 。 
d) 测 试 的 过 程 中 ， 将 所 需要 测试 的 图 像 作 为 输入 放 入 训练 
好 的 神经 网 络 中 ， 输 出 初始 显著 性 图 。 


直至 


返 


e) 深 度 模型 输出 的 初始 显著 性 图 运用 全 
即 式 (6)， 进 一 步 优 化 得 出 最 


连接 条 件 随机 场 ， 
终 检测 的 显著 性 图 。 


2.3 ”验证 方法 

为 了 验证 本 文 所 提 方 法 的 有 效 性 和 准确 性 , 本 文采 用 四 种 
确 性 和 和 鲁 棒 性 验证 , 包括 : 精确 率 -召回 曲 
线 (PR-curves)、F-measure、weightedF-measure 以 及 绝对 方差 
错误 (MAE)。 


标准 验证 方法 进行 ; 


加 


首先 ， 可 以 根据 生成 的 显著 性 图 ， 基 于 不 同 的 闪 值 将 其 转 
换 为 一 系列 二 值 图 ,并 且 比 较 它 们 和 用 户 标注 G 的 差异 。 因 
BMG| 
而 可 以 获得 给 定 显著 性 图 的 准确 率 。 己 = 四 ， 以 及 召回 率 
Bcl 
R= 回 之 后 ， 根 据 不 同 浆 值 计算 精确 率 - 召 回 曲线 。F- 
measure (5 ) 的 计算 如 下 : 
PxR 
F,=(] 2 
0 (8) 


根据 相关 文献 错误 ! 未 找到 引用 源 。, 错 误 ! 未 找到 引用 源 。 


的 建议 ， 上 式 中 ，/ 太 设置 为 0.3。F-measure 指标 反映 了 方法 的 


ae 


也 被 用 于 验证 


住 确 性 ， 除 此 之 外 ，weighted F-measure ( Fy ) 


初始 化 本 文 模型 中 的 特征 提取 网 络 的 前 五 组 卷 积 层 参 数 ， 而 新 著 性 检测 算法 的 准确 性 ， 计 算 如 下 : 
添加 的 卷 积 层 以 及 反 卷 积 层 的 网 络 参数 以 正 态 分 布 来 随机 初始 pie 
人 Fy = +p) Re 9) 
ee nt nd et 其 中 ，P® 和 R® 为 加 权 准 确 率 (weighted precision〉 和 加 权 召 
对 象 骨骼 检测 子 网 络 的 训练 集 {15a, Gae} 分别 训练 两 个 不 同 的 
子 网 络 ; 可 率 (weighted recall ) 。 


(a) 固 定 特 征 提取 网 络 前 五 组 卷 积 层 的 网 络 参数 ， 


著 性 对 象 检测 子 网 路 参数 Cu , 数据 集 {Tse,Gs。e} 首先 被 ) 


练 对 象 骨骼 检测 子 网 络 的 参数 0 ; 


以 及 显 


来 训 


(bp) 固定 对 象 骨 骼 检测 子 网 络 参数 Q ， 利 | 
{Zsa,Gsa] 训练 显著 性 对 象 检测 子 网 络 的 参数 0,; 


(c) 上 述 步 又 (a)(b) 均 采用 “poly ”衰减 算法 ， 


) power 


(1 ey 
MaX jer 


自动 调整 


] 数 提 


中 集 


机 


民 据 


学 习 率 。 其 中 Power 被 设置 为 10”， 


绝对 方差 错误 则 用 于 计算 每 个 像素 和 用 
truth) 的 平均 误差 ， 计 算 如 下 


户 标 注 (ground 


We 


(10) 


x=] y=l1 


其 中 W 和 万 分别 代表 图 像 的 长 度 和 宽度 。 


2.4 对 比分 析 
为 了 验证 本 文 提 出 算法 的 有 效 性 和 和 鲁 棒 性 , 与 5 个 显著 性 
对 象 检测 算法 进行 对 比 ， 其 中 包括 2 个 最 具 代 表 性 的 传统 显著 
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性 对 象 检测 算法 : 基于 和 鲁 棒 背 景 


融合 的 显著 性 对 


(robust background detection, RBD) + 用 浙 , 显著 性 区 域 特征 


检测 的 显著 性 对 象 检测 算法 


象 检 测算 法 (Discriminative Regional Feature 


Integration, DRFD 4 fa 以 及 3 个 基于 深度 学 习 的 显著 性 


对 象 检测 方法 ， 


包括 : 基于 距离 图 的 深度 显著 性 对 象 检 测算 法 


(encoded low-level distance, ELD) 和 “*!* 到 引用 浙 ,。 基于 深度 全 卷 积 
网 络 的 显著 性 对 象 检测 算法 (deep saliency, DS) 千 RAR ， 基 
于 深度 对 比 度 的 显著 性 对 象 检测 算法 (deep contrast learning， 


DCL) 错误 ! 未 找到 引用 源 。 


2.4.1 定量 分 析 


为 了 验证 本 文 所 提 算 法 的 准确 性 和 和 鲁 棒 性 ， 首 先 利 用 F- 


measure 值 比 较 本 文 所 提 算 法 和 


其 他 显著 性 对 象 检测 算法 


的 准 


确 性 。 如 表 3 所 示 ， 本 文 所 提 算 法 在 三 个 公共 数据 集 均 获得 最 
高 的 F-measure 值 。 具体 来 说 ， 本 文 所 提 方 法 在 ECSSD 数据 库 


的 结果 表明 本 文 算法 可 以 在 复杂 的 场景 中 准确 检测 出 结构 复杂 
的 显著 性 对 象 。 在 DUT-OMRON 中 , 本 文 所 提 算 法 也 高 于 所 有 
车 于 深度 学 习 的 显著 性 对 象 检测 算法 ，F-measure 值 达 到 了 
0.765， 远 高 于 ELD 的 0.720。 该 数据 库 为 当前 最 大 数据 库 ， 包 


含 了 各 种 不 同 的 场景 和 对 象 ， 因 此 可 以 证 明 本 文 方法 具有 一 定 
的 鲁 棒 性 ， 可 以 用 于 检测 各 种 复杂 场景 中 的 显著 性 对 象 。 在 
HKU-IS 数据 集中 ， 本 文 算法 也 获得 最 高 的 F-measure 值 。 这 证 
明 本 文 方法 可 以 比 当前 算法 更 鲁 邦 地 检测 出 同一 场景 中 的 多 个 
显著 性 对 象 。 根 据 F-measure 的 检测 结果 ， 还 可 以 得 出 如 下 结 


论 : a) 利用 深度 
性 对 象 检测 算法 


申 经 网 络 提取 的 语义 信息 可 以 极 大 地 提升 显著 
的 准确 性 ; b) 本 文 算法 由 于 整合 了 对 象 的 结构 


信息 ， 


因而 可 以 更 好 的 检测 出 复杂 场景 中 的 显著 性 对 象 ， 使 得 


方法 更 具 准 确 性 和 重 棱 性 ; 


全 连接 条 件 随机 场 优化 深度 


c) 运 | 


模型 输出 的 显著 性 图 可 以 进一步 提高 检测 的 准确 率 。 


如 表 3 所 示 ， 本 文 算 法 
的 MAE 
OMRON 以 及 HKU-IS， 本 文 所 


在 三 个 公共 数据 集 上 都 获得 了 更 低 
值 。 有 具体 来 说 ， 与 对 比 算法 比较 ， 在 ECSSD、DUT- 


提 方 法 MAE 值 分 别 降低 了 


19.4%、26.3% 以 及 27.1%。 该 验 订 
和 | | 户 示 注 更 为 接近 的 结果 ,证 明 


FE 结 果 说 明 本 文 算法 可 以 生成 
了 该 方法 的 准确 性 和 重 棒 性 。 
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主要 原因 在 于 : a) 整合 对 象 骨骼 信息 可 以 使 得 深度 网 络 感知 对 


象 结 构 ， 从 而 能 完整 的 检测 出 整个 显著 性 对 


连接 条 件 随机 场 对 显著 性 图 进 
边缘 信息 ， 使 得 结果 更 加 准确 。 
最 后 ， 根 据 精确 率 - 召 回 | 


象 


区 域 ; b ) 运用 全 
步 优化 可 以 更 好 的 保存 对 象 的 


线 (PR-curves) 和 weighted 上 - 


measure( 图 4), 本 文 算法 在 三 个 公共 数据 集 上 也 有 更 优 结 果 。 
再 次 证 明了 本 文 所 提 算 法 的 准确 性 和 重 棒 性 。 
表 3 ， 不 同方 法 在 三 个 公共 数据 集 的 结果 比较 结果 。 其 中 ,“0urs “表示 本 
文 深度 神经 网 络 模型 ， 而 “0urs+” 表 示 运 用 额外 的 DenseCRF 进一步 优化 模 
型 输出 的 结果 。 
ECSSD DUT-OMRON HKU-IS 
Fs MAE Fs MAE Fs MAE 
DRFI 0.786 0.164 0.665 0.155 0.684 0.226 
RBD 0.716 0.171 0.630 0.144 0.657 0.120 
DS 0.882 0.122 0.716 0.120 0.866 0.079 
ELD 0.869 0.098 0.720 0.091 0777 .121 
DCL 0.887 0.072 0.718 0.094 0.879 0.059 
Ours 0.900 0.068 0.753 0.077 0.893 0.056 
Ourst 0.907 0.058 0.765 0.067 0.902 0.043 
2.4.2 定性 分 析 
如 图 5 所 示 ， 本 文 算法 在 检测 复杂 场景 中 的 显著 性 对 象 区 
域 时 ， 能 够 更 好 地 排除 背景 杂质 、 完 整 提取 显著 性 对 象 区 域 。 
对 比 现存 显著 性 对 象 方 法 ， 本 文 方法 在 应 对 这 些 相对 少见 的 场 
景 时 ， 可 以 更 准确 地 发 现 显 著 性 对 象 区 域 ， 从 而 证 明 该 方法 具 
有 更 好 的 鲁 棒 性 。 也 说 明了 ， 在 深度 神经 网 络 中 考虑 对 象 骨骼 
信息 的 整合 有 利于 深度 神经 网 络 更 好 的 感知 对 象 的 形状 信息 ， 


从 而 帮助 克服 二 义 性 问题 。 


男 外 ， 从 定性 比较 中 ,还 可 以 得 出 


如 下 结论 : a) 相 比 基于 


人 工 设 计 特 征 的 显著 性 对 象 检测 方法 ， 基 于 深度 神经 网 络 的 显 


著 性 对 象 检测 方法 可 以 更 准 


确 地 检测 复杂 场景 中 的 显著 性 对 象 ; 


b) 在 深度 网 络 模型 中 考虑 对 象 的 结构 信息 , 可 以 帮助 克服 复杂 


场景 检测 时 的 二 义 性 问题 ， 提 高 检测 方法 的 鲁 棒 性 。 
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2.4.3 运行 效率 分 析 


2.30 GHz CPU 


运行 效率 测试 结果 如 表 4 所 示 。 传 统 方法 的 测试 
以 及 8 GB RAM 
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图 5 不 同方 法 定性 比较 ，GT 表示 用 户 标注 结果 。 


F 台 为 17 


而 基 


FF 深度 学 习 的 显著 性 对 


象 检 测 方法 的 测试 平台 为 NVIDIA GTX Titan XGPU 以 及 12G 
存 。 实 验 结 果 表 明 ， 传 统 方法 的 运行 效率 低 于 基于 深度 学 习 
显著 性 对 象 检 测算 法 。 本 文 的 深度 模型 运行 效率 为 30fps。 但 


的 
是 由 于 本 文 算法 的 结果 需要 额 儿 
图 像 的 整体 运行 时 间 为 0.51s， 
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的 后 处 理 ， 因 此 处 至 
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所 有 对 比方 法 
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表 4 运行 效率 比较 (单位 ，s)。 其 中 ，"Ours" 表 示 本 文 深 度 神经 网 络 模 


型 ， 而 "Ours+" 表 示 运 用 额外 的 DenseCRF 进一步 优化 模型 输出 。 


DRFI RBD DS ELD DCL Ours Ours+ 


6.34 0.52 0.73 0.59 1.17 0.02 0.51 
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本 文 提 出 一 种 基于 深度 学 习 的 显著 性 对 象 检测 算法 。 不 同 
于 现存 基于 深度 学 习 的 显著 性 对 象 检测 算法 ， 本 文 算法 在 模型 
设计 中 考虑 了 对 象 结构 信息 的 感知 ， 从 而 克服 了 检测 复杂 显著 
性 对 象 时 结构 保存 不 完整 的 问题 ， 获 得 了 更 高 的 准确 率 。 为 了 
获取 对 象 的 结构 信息 ， 本 文 设计 了 一 个 多 流 的 深度 神经 网 络 ， 
并 且 在 网 络 中 多 尺度 融合 学 习 的 骨骼 信息 。 除 此 之 外 ， 为 了 进 
性 图 的 准确 性 ， 本 文 运用 全 连接 条 件 随 机 场 优化 
深度 模型 的 检测 结果 。 实 验 结果 表明 ， 比 较 传统 显著 性 对 象 检 
测算 法 和 现 有 基于 深度 学 习 的 检测 算法 ， 本 文 算 法 在 定量 和 定 
性 指标 上 都 有 改善 ， 也 说 明了 在 显著 性 对 象 检 测 中 考虑 对 象 结 
构 信 息 的 必要 性 。 如 何 把 基于 对 象 结构 信息 的 深度 网 络 模型 运 
在 更 多 的 像素 级 预测 任务 ， 如 语义 分 割 和 场景 分 制 ， 以 及 如 
何 更 好 地 在 深度 模型 中 消除 见 余 信息 是 未 来 工作 值 
得 关注 的 方向 。 
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